На главную

Тема 4. Информационно-поисковые системы

Обзорная лекция

Содержание

4.1. ОФормализованное представление и поиск информации.
4.2. Лингвистическое обеспечение информационно-поисковых систем.
4.3. Основы систем метаданных.
4.4. Глобальная сеть Интернет.

4.1. Формализованное представление и поиск информации

Представление информации.
Поиск информации.
Информационно-поисковые системы.

Представление информации

В современных системах управления вопрос о принятии решения требует фиксации знаний об управляемом объекте и реализации моделей принятия решений, характерных для человека-специалиста (инженер, экономист, педагог). Способность человека накапливать и использовать знания, принимать решения можно назвать естественным интеллектом; соответствующие возможности информационной системы получили название искусственный интеллект.

Базы знаний содержат:

Принято говорить не о знаниях «вообще», а о знаниях, зафиксированных с помощью той или иной модели знаний. Принципиальными различиями обладают три модели представления знаний: продукционная модель, модель фреймов и модель семантических сетей.

Продукционная модель знаний состоит из трех основных компонентов:

В основе теории фреймов лежит фиксация знаний путем сопоставления новых фактов с рамками, определенными для каждого объекта в сознании человека. Структура в памяти компьютера, представляющая эти рамки, называется фреймом (в переводе с английского –  рамка). С помощью фреймов мы пытаемся представить процесс систематизации знаний в форме, максимально близкой к принципам систематизации знаний человеком.
Фрейм представляет собой таблицу, структура и принципы организации которой являются развитием понятия отношения в реляционной модели данных. Слотом фрейма называется элемент данных,  предназначенный для фиксации знаний об объекте, которому отведен данный фрейм.

Фреймовые системы обеспечивают ряд преимуществ по сравнению с продукционной моделью представления знаний:

Семантические модели данных представляют собой средство представления структуры предметной области. Эти модели используют общий набор понятий и отличаются конструкциями, применяемыми для их выражения, полнотой отражения понятий в модели, удобством использования  при разработке информационных систем. Как эталон семантической полноты рассматривается естественный язык, а для формализации языковых конструкций в моделях применяется аппарат математической лингвистики.

Принципы формирования типовой информационной структуры:

Запросы, которые формируют пользователи информационных систем, реализуются следующими способами:

Поиск информации

Теория информационного поиска начиналась с исследования особенностей документальных информационно-поисковых систем (ДИПС).
Под информационным поиском в таких системах понимается некоторая последовательность операций, выполняемых с целью отыскания документов (статей, научно-технических отчетов, описаний к авторским свидетельствам и патентам, книг и т.д.), содержащих определенную информацию (с последующей выдачей самих документов или их копий), или с целью выдачи фактических данных, представляющих собой ответы на заданные вопросы.

Массив элементов информации, в котором производится информационный поиск, называется поисковым массивом.
Теория информационного поиска документальной информации разрабатывалась для научно-технической информации, носители которой принято делить на два класса: первичные и вторичные, табл. 4.1.

Таблица 4.1. Первичные и вторичные документы и издания научно-технической информации
Название класса
Наименование документов и изданий
1. Первичные документы и издания
  • опубликованные документы: книги (монографии, сборники, учебные издания и т. п.), официальные издания, периодические и повторяющиеся издания;
  • специальные виды технических изданий: нормативно-методическая и нормативно-техническая документация (стандарты, технические условия, положения о подразделениях и т. п.), патентно-лицензионная документация и информация об изобретениях и открытиях, промышленные каталоги, информационные листки;
  • неопубликованные документы: депонированные рукописи, отчеты о выполненных научно-исследовательских и опытно-конструкторских работах, чертежно-конструкторская документация и т. п.
2. Вторичные документы и издания
  • реферативные журналы (РЖ);
  • экспресс-информация органов НТИ;
  • обзорные информации: реферативные и аналитические обзоры (разовые и периодические);
  • информационные издания по патентам, стандартам и промышленным каталогам.

Представленные виды документов сохраняются, но несколько видоизменяются, дополняются по мере развития средств информатизации информационных процессов и машинных носителей хранения информации.

Существуют различные виды информационного обслуживания. Основными можно считать следующие:

Классификации видов обслуживания представлены в табл. 4.2.

Таблица 4.2.  Классификации видов обслуживания 
Признак классификации

Вид обслуживания

По источнику инициативы
  • принудительное;
  • по запросам потребителей
По типам документов
  • обслуживание опубликованными документами и/или их копиями;
  • обслуживание копиями неопубликованных документов (отчетов по НИР, диссертаций, переводов и т. п.)
По направленности или адресности
  • информационные издания (много адресов);
  • избирательное распределение информации (один адрес)
По периодичности или срочности
  • текущее оповещение;
  • ретроспективный поиск
По способу доведения документов до потребителя
  • непосредственная передача документов или их копий потребителям;
  • двухступенчатое обслуживание (вначале информационное издание, а затем – копии заинтересовавших потребителя документов
По назначению, цели
  • ознакомление;
  • для практического использования

Способы реализации видов и форм обслуживания зависят от вида, назначения и способа реализации конкретной ИПС. В современных условиях распространены режимы обслуживания в форме on-line доступа к базам данных автоматизированных ИПС и представления информации на CD-ROM. Для эффектного информационного обслуживания необходимо выявлять информационные потребности. Поэтому изучение запросов потребителей информации является первоочередной задачей научно-информационной деятельности. Задача эта является достаточно сложной, поскольку потребители, как правило, не умеют четко сформулировать свои потребности, и они уточняются по мере работы с получаемой информацией.

Очевидно, что прочитать каждый документ библиотеки, чтобы найти необходимый, практически невозможно. Поэтому на протяжении истории развития информационного поиска разрабатывались и совершенствовались методы поиска. С незапамятных времен для поиска информации применяют ряд логических процедур, которые в совокупности и составляют процесс поиска информации.

В семидесятых годах 19-го века сформировалась предметная (точнее, алфавитно-предметная) классификация. На долгие годы она стала господствующей при составлении энциклопедий, вспомогательных указателей к трудам, систематически излагающим проблему или раздел науки, а в США, где она была создана – при организации каталогов. До середины 20-го века возможность содержательного поиска информации по справочникам или документам, содержащим нужную информацию, в библиотеках ограничивалась тремя способами: систематическим, предметным, алфавитным.

В пятидесятые годы 20-го века были сформулированы понятия информационного поиска, информационно-поисковой системы, информационно-поискового языка, была выдвинута задача механизации, а затем и автоматизации информационного поиска.
К этому времени стало ясно, что информационный поиск – это совокупность логических процедур, в результате которых на информационный запрос выдается либо необходимая информация (фактографический поиск), либо библиографические адреса этих документов (библиографический поиск). Документы подвергаются анализу (интеллектом человека), абстрактное представление о его содержании выражается на некотором информационно-поисковом языке, т.е. синтезируется в виде библиографического описания и индекса. Индекс образуется путем мысленного сопоставления основного смыслового содержания с потенциальными запросами потребителей информации. 

Прежде всего, каждому документу, вводимому в поисковый массив, ставится в соответствии поисковый образ документа (ПОД), который представляет собой характеристику, отражающую основное смысловое содержание документа (этим ПОД отличается от кода, присваиваемого информационному элементу в фактографических ИС). В виде такой же краткой характеристики – поискового предписания или поискового образа запроса (ПОЗ) должны быть сформулирован и информационный запрос.

Благодаря этому процедура поиска может быть сведена к простому сопоставлению поисковых образов документов с поисковым предписанием. Однако такое сопоставление допустимо лишь в случае, если ПОД и ПОЗ описаны в терминах единого языка. Для реализации процедуры описания документов и запросов с помощью ПОД и ПОЗ разработаны (и разрабатываются) информационно-поисковые языки (ИПЯ), которые имеют различные возможности.

Простейшим ПОД может являться заглавие документа, переписанное в форме перечня входящих в него слов. При этом необходимо установить некоторые правила, например: включение существительных в единственном числе и именительном падеже, глаголов – в неопределенной форме или в виде отглагольных существительных и тому подобные правила, общих для ПОД и ПОЗ.

В наиболее развитых вариантах для уточнения содержания документа можно в качестве ПОД использовать аннотацию или реферат документа, а также входящих в них слова с учетом некоторых правил, общих для формирования ПОД и ПОЗ. Поскольку в практических условиях реализации ИПС число слов, включаемых в ПОД и ПОЗ, не должно быть слишком большим, вводится понятие «ключевые слова», которые являются наиболее значимыми для отображения содержания документа.

Для сопоставления ПОД и ПОЗ разрабатывают и применяют различные критерии поиска или критерии смыслового соответствия (КСС). Точность поиска определяется точностью отображения документов и запросов с помощью их поисковых образов и степенью совпадения ПОД и ПОЗ. Поэтому возможна неполнота выдачи документов, либо, напротив, «поисковый шум», которые представляют собой своеобразную плату за облегчение процедуры информационного поиска.

Процедура выражения основного смыслового содержания документа и информационных запросов на информационно-поисковом языке получила название индексирования и составляет существенную часть аналитико-синтетической обработки документов. Информационный поиск, таким образом, заключается в замене содержательного прочтения полного текста документов формальным «сличением» (сравнением на соответствие) их поисковых образов с запросами на языке индексов.

Прочтение полного текста документа заменили просмотром заглавий, аннотаций, рефератов. Однако и эта процедура в многотысячных собраниях документов оказалась слишком трудоемкой. Документы пришлось систематизировать по содержанию, которое условно стали обозначать индексами (буквами и/или цифрами). Систематизация по разделам наук (классам) – один из самых первых способов раскрытия содержания научно-технических документов, моделирующий работу человеческого сознания и восходящий к глубокой древности. По мере увеличения количества письменных и печатных документов и объема наших знаний о мире их классификация усложнялась. Эти классификации получили название иерархических.

 Метод координатного индексирования (М. Таубе, К. Муэрс – США, пятидесятые годы 20-го века) основан на предположении, что основное смысловое содержание любого документа и информационного запроса можно выразить при помощи набора терминов, по большей части содержащихся в самом индексированном документе. Эти термины получили название ключевых слов. Ключевые слова образуют для данного документа координатную сетку, по которой в дальнейшем ведется информационный поиск по соответствующему запросу.
Термины находятся в сложных взаимоотношениях между собой, выражают более узкие или более широкие понятия, могут быть связаны по сходству, по контрасту (омонимия, синонимия) или по другим ассоциациям. Чтобы иметь возможность учитывать это при поиске, приходится составлять специальные понятийные справочники (тезаурусы). В них для каждого понятия (класса условной эквивалентности) выбирается один термин – дескриптор, а для остальных слов указывается их связь с дескриптором.

Рубрикатор – это особым образом организованный перечень рубрик иерархической классификации, предназначенный для отражения сведений о текущих публикациях в информационных изданиях или системах информационного обслуживания. К его характерным особенностям относятся сравнительно небольшая глубина индексации, ориентированность на межотраслевые, междисциплинарные, комплексные проблемы, простота и линейность структуры, достаточная гибкость, частая и безболезненная изменяемость формулировки рубрик. По рубрикаторам классифицируются самые мощные потоки научных публикаций (за год в мире появляется примерно 5 млн. не совпадающих документов).

Гипертекст – это новая технология представления неструктурированного, свободно наращиваемого знания (В. Буш, 1945 год; Т.Нельсон, 1965 год). Здесь обработка информации осуществляется совместно с человеком (авторская технология). Весь поисковый аппарат реализуется  как тезаурус гипертекста (нет поисковых образов документов).

Информационно-поисковые системы

Информационный поиск реализуется при помощи информационно-поисковой системы, которая в абстрактном виде должна состоять из информационно-поискового языка, правил перехода на этот язык и критерия смыслового соответствия, определяющего объем выдачи документов или информации. Классификация ИПС представлена на рис. 4.1.


Концептуальная схема информационно-поисковой системы представлена на рис. 4.2.

 

 

 

 

 

 

 

 

 

Модель организации данных в гипертекстовых справочных системах основана на сочетании ассоциативных гиперссылок и иерархического принципа организации фрагментов и документов. Данные модели сочетают апробированные и интуитивно понятные большинству пользователей, по аналогии работы с книгой, иерархическую навигационную структуру (гипертекстовое оформление и предметный указатель) с дифференцированными ассоциативными гиперссылками, выражающими рассмотренные выше различные типы ассоциаций при изучении и восприятии текстовой информации.

Восприятие и понимание гипертекстовых сообщений, экранная культура текста, электронная риторика взаимоувязаны с учебными материалами, размещенными в электронных средах (программный подход клиент-сервер, язык форматирования HTML, протоколы HTTP). Встраиваемые в текст Web-страницы, гипертекстовые ссылки различаются по решаемым задачам (структурные, ассоциативные, дополнительные) и позволяют создавать нелинейную структуру обучения с возможностью выбора различных путей для прочтения текста, реализация которых невозможна в печатном варианте. Построение (редактирование, комментирование) сообщений веб-страниц, их навигационной структуры подчиняется своим правилам (принцип «перевернутой пирамиды», синергетический подход, массовая издательская среда), которые реализуются в различной веб-архитектуре (одиночная страница, веб-презентация, семантическая сеть, иерархический веб-сайт).

Обращение к сетевым объектам по адресам осуществляют навигаторы (браузеры), например, Microsoft Internet Explorer (или «Обозреватель», по терминалогии фирмы Microsoft). Портал – это веб-страница с гиперссылками на ресурсы Интернет. Web-страница – это электронный документ, записанный в HTML формате.
Браузер определяет профиль пользователя, позволяет работать с Web-страницами (со встроенными объектами или без них), ведет регистрационный журнал  и имеет меню настройки.

Поисковые системы делятся на глобальные, отраслевые, национальные и региональные, фирменные и индивидуальные. Эти системы могут осуществлять простой, расширенный и специальный поиск.
Поисковые сетевые системы являются специфическими браузерами, формирующими ссылочные списки. Мощные поисковые системы хранят сведения о примерно 300 млн. web-страниц (на начало 2005 года насчитывалось порядка 2 млрд. документов).

Поисковые системы подразделяются на каталоги и указатели; они различаются технологией подготовки справочного материала: каталоги составляют люди, а указатели формируются автоматически.
Самый крупный каталог Интернет – Yahoo! (www. yahoo.com); он содержит 1 миллион ресурсов и поддерживается 150 редакторами.
Ведущий каталог России – List.Ru (www. list.ru); 100 тысяч ссылок, классифицированных по 18 каталогам.

Классификационно-рейтинговые системы создаются для «туристов». Классификатор похож на каталог, но по каждой категории представляются лучшие сайты и фиксируется число посетителей. Самый крупный классификатор России – Рамблер Тор 100 (размещается на портале поискового указателя России Рамблер – www.rambler.ru).


4.2. Лингвистическое обеспечение информационно-поисковых систем

Классификация средств лингвистического обеспечения.
Вербальные языки.
Семантические языки разметки текста.

Классификация средств лингвистического обеспечения

В настоящее время в информатике отсутствует общая теоретическая модель, охватывающая основные аспекты речевого общения (коммуникативного взаимодействия) человека и информационной системы. В то же время ряд фундаментальных дисциплин изучает коммуникативное взаимодействие в различных аспектах.

Есть различные подходы к определению понятия «лингвистическое обеспечение (ЛО)». Наиболее известен классический подход, при котором лингвистическим обеспечением называют комплекс информационно-поисковых языков, прежде всего, классификационных и вербальных. В последнее время в понятие ЛО в этом подходе обычно вкладывают и языки библиографических данных.
Существует лингвистический подход, поскольку он органически вытекает из лингвистического взгляда на информационные системы и который развивают в основном специалисты по прикладной и компьютерной лингвистике. В соответствии с этим подходом ЛО – это комплекс средств, используемых для автоматической обработки текстов на естественном языке (включая обработку запросов и поиск), т. е. прежде всего языковые процессоры.

Более общим является семиотический подход, поскольку он исходит из классических семиотических представлений о языке как системы знаков разного уровня, начиная, естественно, с алфавита. При этом подходе лингвистическое обеспечение определяется как средства представления информации в виде данных и интерпретации этих данных. При этом подходе в состав ЛО нужно включать средства кодировки алфавитов или форматы представления данных, но не нужно включать инструментальные языки программирования.

Программистский подход опирается на полисемию термина «язык», который в информационной литературе может обозначать не только средства представления данных, но и средства программирования и другие формальные системы. К тому же средства манипулирования данными в последние годы интегрируются с языками описания данных в рамках языков высокого уровня, которые все ближе к тому, что может назвать формализованным естественным языком и все дальше от представления об обычных инструментальных программных средствах (таковы, например языки разметки типа SGML или XML). При этом подходе в составе ЛО могут оказаться вообще все языковые средства пользования, причем несущественно, носят ли они характер языков описания данных, представления данных или манипулирования данными.

Существует также подход, зафиксированный в нормативных документах по АСУ (группа ГОСТ 34), в которых разделяются информационное и лингвистическое обеспечение. При этом основным типом этих систем являются классификаторы. Эти нормативные документы относят к информационному обеспечению, а на долю лингвистического обеспечения относят только правила оформления естественно-языковых единиц этих классификаторов, т. е. чисто лексикографические аспекты.

Средства, входящие в состав ЛО, целесообразно разбить на два класса.
К первому классу относятся языки, предназначенные для представления данных в электронных библиотеках (ЭБ). Говоря о данных предполагается, что они представлены в виде некоторых выделяемых и идентифицируемых информационных ресурсов, которые можно назвать «цифровыми объектами». Для этого класса языковых средств корректно применять распространенный термин «информационно-поисковые языки (ИПЯ)».

Эти языки достаточно естественно классифицируются в зависимости от уровня отображения информации, имеющейся в цифровых объектах:

Для цифровых объектов типа документов первому уровню отображения соответствуют языки описания документов, детально разработанные в традиционных областях информационной деятельности: библиотековедение, архивные дела, делопроизводство, картография и др. Самые известные – языки библиографических данных, включающие правила библиографического описания и форматы библиографической записи (они возникли в XIX веке). Сейчас эти языки объединяются с языками для описания других цифровых объектов (нужды Интернета). Общее название языков для описания цифровых объектов – системы метаданных.

На втором уровне отображения используются языки классификационного или предкоординатного типа. Принципиальным свойством этих языков является разбиение множества цифровых объектов на классы, описанные при помощи связывания, в виде иерархического дерева. Эти языки обладают заметными преимуществами перед другими типами поисковых языков, прежде всего простотой для пользователя и независимостью от естественного языка. К недостаткам относят необходимость интеллектуального индексирования, особенно с учетом развития информационных сетей.

На третьем уровне отображения используются языки, ориентированные на применении в качестве лексики семантических единиц естественного языка. Это – вербальные языки. Более распространенное название этих языков – дескрипторные, в соответствии с названием общепринятой формы представления лексических единиц – дескрипторов. Иногда эти языки называют посткоординатными, подчеркивая противопоставление с классификационными языками по базовой функции – способу отражения информации текста. Если в классификационных языках используется связывание поисковых признаков, то в дескрипторных языках признаки связываются непосредственно в цифровом объекте (посткоординация). Вербальные языки являются центральным компонентом лингвистического обеспечения электронных библиотек. Практически вся теория информационного поиска строится на использовании вербальных ИПС.

На четвертом уровне отображения находятся языки, ориентированные на представление и поиск высказываний (фактов), содержащихся в самом документе. Поскольку основной (и чуть ли не единственный) тип высказываний, которые удается извлекать автоматически из плохо структурированной информации – это факты типа «объект-признак-значение», постольку языки данного класса принято называть «объектно-признаковыми». Иногда их называют факто- или объектографическими. Этот класс языков находится на стыке АИС типа электронной библиотеки и АИС типа банка данных. В теории баз данных их именуют «моделями данных», языками описания данных и др.

Второй класс средств, входящих в состав ЛО, не является языками в полном смысле. Чаще всего их называют лингвистическими процессорами. К этим словам относят два класса технологий: автоматическая обработка текста и лингвистические банки данных.
Под автоматической обработкой текста понимаются процессы автоматического описания текста (документа) на одном или нескольких информационных языках, включая автоматическое индексирование, аннотирование. В основе этих процессов лежат конкретные лингвистические алгоритмы, прежде всего морфологического и синтаксического анализа.

Лингвистические базы данных – важный обеспечивающий компонент электронных библиотек. В этой части лингвистическое обеспечение смыкается с компьютерной лексикографией.
Итак, лингвистическое обеспечение информационных систем (с ориентацией на электронные библиотеки) включает следующие средства:

1. Информационно-поисковые языки:
1.1. Системы метаданных.
1.2. Классификационные языки.
1.3. Вербальные языки.
1.4. Фактографические языки (объективно-признаковые).

2. Лингвистические процессоры:
2.1. системы автоматической обработки текста.
2.2. Лингвистические банки данных.

Приведем в качестве примера одну из «программистских» классификаций лингвистического обеспечения:
С - подобные компилируемые языки: С, С++, С#, Java, Smalltalk.
Скриптовые языки: Perl, Java Script, Ruby, PHP.
LISP-подобные языки: LISP, Logo, R, Scheme.
Постфиксные языки: Forth, Post Script.
Языки разметки текста: TEX, Iovt, SGML, XML, HTML+CSS, XHTML.
Языки запросов: SQL, mySQL.

Вербальные языки

Вербальные языки (лат. verbalis – словесный) используют в лингвистическом обеспечении для представления лексических единиц слова и выражения естественного языка в орфографической форме.  К языкам вербального типа относятся язык предметных рубрик и язык ключевых слов (предметизационный и дескрипторный).

Вербальные языки были и остаются центральным элементом лингвистического обеспечения электронных библиотек (ЭБ). В настоящее время доминируют языки, основанные на свободной, неконтролируемой лексике, однако разработчиками поисковых машин очевидны границы подобных языков. Пока проблему пытаются решить за счет параллельного использования классифицированных поисковых языков типа традиционных каталогов. Рано или поздно придется обратиться к идее семантически контролируемых поисковых языков, т.е. к идее тезауруса для Интернета или, по крайней мере, для контролируемой части информационного пространства Интернета, т.е. для коллекций ЭБ.

В дескрипторных языках лексические единицы заранее не связаны текстуальными отношениями. Сложные синтаксические структуры в этом случае создаются во время смыслового представления документа. Из набора дескрипторов можно строит. различные фразы. Дескрипторные языки бывают с грамматикой и без грамматики. В языках с грамматикой существует жесткие правила построения. Например: «действие – субъект –объект». В языках без грамматики порядок слов значения не имеет. Дескрипторные языки могут быть с контролируемой и свободной лексикой. В первом случае состав ограничен словарем, во втором – может пополняться.

В Интернете ИПС-фразы обычно сроятся с использованием языков математической логики: or (_), and (+), and not  (-) (Aport, Yandex, Rambler). Кроме того, уточнение значений может выполняться с помощью задания слов, расположенных рядом, а также при помощи неточного задания слов, например: <стол*>(попадет слово «столовая»). Слова могут приводиться к нормальной форме. Уточнением может служить тезаурус (словарь, который содержит одинаковые по смыслу слова), который применяется, например, в системе Alta Vista.

Язык предметных рубрик предназначен для индексирования документов и информационных запросов посредством предметных рубрик. В его основе лежит алфавитный перечень предметных рубрик, представляющих собой краткую формулировку темы на естественном языке. Являясь искусственной системой, этот язык должен быть построен стандартизировано, предельно единообразно. Это помогает читателю сэкономить время и силы при поиске. Однако язык предметных рубрик является менее эффективным средством тематического поиска ввиду отсутствия единой системы предметизации и универсального словаря предметных рубрик. Предметные рубрики в силу специфики их состояния не годятся для глубоко достоверного поиска по теме в машиночитаемых библиографических БД.

Язык поисковых слов служит для координатного индексирования документов и запросов посредством дескрипторов и/или ключевых слов. В его основе лежит алфавитный перечень лексических единиц, или словарь ключевых слов. Именно язык ключевых слов открыл возможность для автоматизации информационного поиска. Он позволяет достаточно детально и многоаспектно раскрывать содержание документов. Дескрипторы и ключевые слова легко дополняются и обновляются, поскольку в алфавитный перечень можно включать любую лексическую единицу, необходимую для индексирования.

Индексаторы и пользователи единодушно высказываются в пользу языка ключевых слов. Пользователи заинтересованы оперировать ключевыми терминами, которые являются наиболее понятным поисковым средством. При поиске по языку ключевых слов от читателя не требуется знаний ББК (или какой-то другой системы классификации), отпадает такая проблема, как междисциплинарная (под определенным термином собираются все сведения о предмете, даже если это понятие разделяется на несколько отраслей). Практика показывает, что при поиске с помощью ключевых терминов удается найти большее число релевантных документов, чем при обращении к предметным рубрикам.

Информационно-поисковые каталоги является традиционными технологиями организации информационного поиска в документальных фондах библиотек, архивов и представляют собой классификационную систему знаний по определенной предметной области. Смысловое содержание документа в информационно-поисковых каталогах отображается тем или иным классом каталога, а индексирование документов заключается в присвоении каждому документу специально кода (индекса), соответствующего по содержанию классу (классам) каталога, и создании на этой основе специального индексного указателя.

Семантические языки разметки текста

Среди языков разметки текста можно выделить TeX, XML, SGML, XATML, HTML+CSS.
Все Web-страницы Интернета имеют одну общую черту – они связаны с помощью средств языка HTML (Hyper Text Markup Language – язык разметки гипертекста). HTML – не обычный язык программирования, хотя процесс создания Web-страниц близок к процессу программирования. HTML – это язык разметки гипертекста. Он определяет правила, согласно которым обычный текст представляется в виде Web-страниц.

Язык HTML появился одновременно со службой World Wide Wet (WWW) и развивался вместе с ней, постепенно вбирая в себя новые черты, которые позволяли создавать все более впечатляющие Web-страницы. Он является основой WWW и одновременно причиной ее широчайшей популярности.

Гипертекст – это текст, в который встроены специальные коды, управляющие дополнительными элементами, такими как форматирование, иллюстрации, мультимедийные вставки и гиперссылки на другие элементы. Под разметкой понимается вставка в текст этих кодов, определяющих то, как итоговый гипертекстовый документ должен отображаться программой-браузером. Разметка может быть простой или сложной, но в любом случае исходный текст сохраняется в документе в неизменном виде. Но самое важное в этом описании – язык. HTML представляет собой компьютерный язык, в некотором смысле родственный языкам программирования. Он включает достаточно строгие правила, которые необходимо соблюдать, чтобы получить правильные результаты.

Коды языка HTML называют тегами. Теги – это специальные последовательности символов, заключенные в угловые скобки (<…>). Web-документ представляет собой исходный пакет с имплантированными в него тегами. Таким образом, Web-документ представляет собой обычный текст и может создаваться и редактироваться средствами обычных текстовых редакторов.

Основная особенность создания Web-документов состоит в том, что автору документа не известно, на какой модели компьютера, в какой операционной системе и какими программами этот документ будет отображаться на экране пользователя. Этот «уровень незнания» не позволяет жестко задавать параметры форматирования Web-документа.

Форматирование Web-документа отличается от форматирования документов в обычных текстовых процессорах тем, что является функциональным. Так, например, коды HTML не должны точно задавать параметры шрифта, строки и абзаца (хотя в некоторой степени они позволяют это делать). Вместо этого они определяют назначение заголовка или абзаца, а программа пользователя, выполняющая просмотр Web-документа сама «принимает решение» о том, как отобразить текстовый элемент на экране.

Используя коды HTML можно выполнить следующие действия:


4.3. Основы систем метаданных

Общие положения.
Дублинское ядро метаданных.

Общие положения

Система метаданных является центральным логическим компонентом любой электронной библиотеки (ЭБ). Подобно тому, как библиотечный каталог организует все множество единиц хранения в систему библиотечных фондов, вокруг которой строятся все библиотечные технологии, система метаданных организует совокупность электронных информационных ресурсов (или цифровых объектов) ЭБ.

На основе системы метаданных строятся основные технологические процессы ЭБ:

Система метаданных является связующим звеном между внутренними свойствами ЭБ, обусловленными семантикой и структурой цифровых объектов и функциональными пользовательскими задачами, и внешними свойствами, обусловленными сетевой средой.
Если понятие метаданных рассматривать в аспекте истории информатики, то это понятие является интегральным по отношению к таким традиционным понятиям (принятым в 1970-1980 годах) как форматы представления данных, языки описания данных, лингвистическое обеспечение АИС.

Главное отличие понятия метаданные от перечисленных понятий заключается в более общем характере метаданных, подобно тому как «цифровой объект» (информационный ресурс) является более широким понятием по сравнению с понятием «документ» или «единица хранения» предыдущих поколений информационных систем.

Типы метаданных:
Описательные – библиографическая информация или другие сведения о содержании (семантике) цифровых объектов.
Структурные – сведения о форматах, структуре, объеме и других формальных свойствах цифровых объектов;
Административные – права, разрешения на доступ, на коррекцию данных, данные о пользователе, данные для систем оплаты, технологические данные. 

Общим типом метаданных является идентификатор, задача которого – однозначное представление цифрового объекта для внешнего лица и различных приложений.

Структурные и административные метаданные известны давно и широко использовались в развитых корпоративных системах для задач управления данными. Специальные системы метаданных этого типа известны под названием «системы словарей-справочников». В последние годы эти системы стали интегрироваться с описательными метаданными в единые системы (особенно в Интернете).  

Системы метаданных
Системы метаданных определяют  класс задач, которые реализуются в ЭК и решающим образом влияют на интероперабельность (совместимость) коллекций, имеющихся в библиотеке. Тем самым принятие тех или иных принципов в отношении метаданных фактически определяет стоимость проектов по созданию ЭБ и эффективность затрат на эти проекты.

Можно отметить следующие системы метаданных.
MARC – машиночитаемый  каталог. Старейший стандарт метаданных в мире. Распространен в России. Отличается детальным составом элементов, данных, универсальностью, развитой структурой. Ориентированы на библиотечную практику. Отличается высокой стоимостью эксплуатации. Это инструмент, логическая структура для внутреннего представления элементов БЗ в базе данных и правила их создания. Различают формат каталогизации и коммуникативный. Вероятно, в будущем элементы машиночитаемых БЗ можно будет предоставлять с использованием и других инструментов, но пока в России завершается создание системы форматов RUSMARC.

CSDGM – стандарт  для цифровых геопространственных данных.  Одобрен в 1994 г. на заседании Федерального комитета США по географическим данным и утвержден Правительственным распоряжениям № 12096. Содержит 334 элемента, из которых примерно 100 служат для описания связей между элементами. Служит для идентификации источников пространственных данных и обеспечивает доступ к данным через Национальную информационную инфраструктуру США.

DIF – формат обмена  для справочников геопространственных данных. Разработан в конце 1980-ых годах для обмена спутниковой и другой телеметрической информацией. Позже стал фактическим стандартом в международных глобальных ИС. Позволяет пользователю определить, содержит ли набор данных релевантную информацию.

GILS – глобальная (правительственная) служба поиска информации. Является частью национальной информационной инфраструктуры США. Базируется на международных стандартах информационного поиска с использованием протокола доступа Z39.50. Обеспечивает частным лицом и организациям доступ к федеральным информационным ресурсам через общедоступный каталог этих ресурсов.

EAD – кодировка архивных описаний, используемая для стандартизации и классификации уникальных архивов материалов, прежде всего рукописей. Набор изначально текстовых метаданных на базе языка разметки SGML, с 1998 года совместим с форматом XML. Поддерживается Американским архивным обществом и Библиотекой Конгресса США.

TEI – инициатива  по кодированию текстов. Разработана в Центре электронных текстов Вирджинии в 1989 году. Является инструментом оцифровки, который идентифицирует электронный ресурс посредством метаданных, размещаемых внутри самого электронного ресурса.

IAFA/WHOIS++ – шаблонно-ориентированные метаданные для описания сетевых ресурсов (проект британской программы по ЭБ – ROADS). Первоначально использовался для описания списков электронной почтовой рассылки, ftp-архивов, а затем был распространен и на другие сетевые ресурсы. Эта схема метаданных – одна из самых распространенных.

INDECS – обеспечивает данных в системах электронной коммерции. Распространена в сфере шоу-бизнеса, создавалась в связке с наиболее известной системой идентификации цифровых объектов DOJ (Digital Object Identification).

EDIFACT – международная система метаданных, содержащая правила и структуру описания торгово-транспортных и других коммерческих документов. С 1998 г. поддерживается языком XML.

MATER – система метаданных, описывающая словари, классификаторы и другие лексикографические данные. Поддерживается стандартами ИСО. Имеется российская версия ФОЛИЯ (Формат обмена лексикой информационных языков).

Формат Государственного регистра баз и банков данных – содержит систему метаданных для баз данных и других электронных наборов данных. Действует с конца 1980-х годов, утвержден Правительством РФ, поддерживается НТЦ «Информрегистр».

Кроме перечисленных систем метаданных, обладающих развитой семантикой, разработаны формальные метаданные, использование которых предусмотрено языками разметки и протоколами, принятыми в Интернете. Это – HTML- или HTTP-метаданные (теги <meta>), определяемые спецификациями соответственно RFC 1866 и RFC 2616. 

Дублинское ядро метаданных

Центральной задачей для развития электронных библиотек в русскоязычном секторе Интернета видится развитие систем метаданных. Это направление наиболее интенсивно развивается в мировом Интернете и поддерживается крупнейшими производителями программных средств для Интернета, такими как Microsoft. Достаточно указать на усилия, затрачиваемые на создание и внедрение системы метаданных «Дублинское ядро» (DC, консорциум WЗ). Международная группа под руководством Stuart Weber & OCLC (штаб-квартира в г. Дублин, штат Огайо, США) работает с 1995 года.

Набор метаданных Дублинского ядра составляют 15 элементов:
Заголовок (Title) – название, присвоенное ресурсу создателем или издателем.
Автор (Creator) – человек или организация, изначально ответственная за интеллектуальное содержание ресурса (в случае рукописного документа это авторы; в случае визуальных ресурсов – исполнители, фотографы, иллюстраторы).
Предмет (Subject) – тема ресурса. Обычно предмет выражается в ключевых словах или фразе, описывающей предмет или содержание ресурса. приветствуется использование контролируемых словарей и формальных схем классификации.
Описание (Description) – текстовое описание содержания ресурса, включая реферат в случае документов или описания содержания в случае визуального ресурса.
Издатель (Publisher) – организация, ответственная за состояние ресурса в его представленной форме: издательский дом, университетский департамент, корпорация.
Участник создания материала (Contributor) – человек или организация, которые не являются авторами (не обозначены в элементе «автор»), но внесли значительный интеллектуальный вклад в ресурс; чей вклад вторичен по отношению к любому человеку или организации, указанной в числе авторов: редактор, переводчик, иллюстратор.
Дата (Date) – дата, указывающая на создание или появление ресурса (в доступном виде).
Тип (Type) – категория ресурса: домашняя страничка, роман, поэма, статья, препринт, технический отчет, эссе, словарь.
Формат (Format) – формат представления данных ресурса (обычно указывается тип программного обеспечении и, возможно, тип компьютера, которые могут быть необходимы для отображения ресурса и работы с ним).
Идентификатор ( Identifier) – набор букв или цифр, который обычно используется для уникальной идентификации ресурса. В случае сетевых ресурсов примерами являются URL и URN.
Источник (Source) -  информация об источнике, из которого получен представленный ресурс.
Язык (Language) – язык, на котором изложено интеллектуальное содержание ресурса.
Связь (Relation) -  идентификатор первичного ресурса и его связь с представленным ресурсом. Этот элемент позволяет связывать между собой близкие ресурсы, а также описание ресурса, которые необходимо показать. Например, издание книги и глава книги.
Охват (Coverage) – характеристика местонахождения и временной продолжительности ресурса.
Права (Rights) -  утверждение об авторских правах и управление ими;
идентификатор, связанный с такими утверждением; идентификатор, связанный с сервисом, представляющим информацию об управлении правами на данный ресурс.

Как указывается в RFC 2413, элементы дублинского ядра условно рекомендуют разбивать на три группы:

  1. Content – элементы, в основном, относящиеся к содержанию ресурса: Title, Subject, Description, Type, Sours, Relation, Coverage.
  2. Intellectual Property – элементы, в основном, рассматриваемые с позиции интеллектуальной собственности: Creator, Publisher, Contributor, Rights.
  3. Instantiation – элементы, в основном, относящиеся к данному экземпляру ресурса: Date, Format, Identifier, Language.  Элементы являются необязательными и могут повторяться.


4.4. Глобальная сеть Интернет

Появление и развитие Интернета.
Структура Интернета.
Передача информации в Интернете.
Ресурсы сети Интернет.

Появление и развитие Интернета

2 января 1969 года Агентство перспективных исследовательских проектов (ARPA – Advanced Research Projects Agency), являющееся одним из подразделений Министерства обороны США, начало работу над проектом связи компьютеров оборонных организаций. В результате была создана сеть ARPANET. Задачи этой сети:

ARPANET обеспечивала связь между университетами, военными учреждениями и предприятиями оборонной промышленности. В случае разрушения одной или нескольких линий связи система должна была уметь переключаться на другие линии.

Потом появилась сеть NSFNET (NSF – National Science Foundation),  объединяющая научные центры США. Основой сети служили 5 суперкомпьютеров, соединенных между собой высокоскоростными линиями связи. Все остальные пользователи могли подключиться к сети и использовать возможности этих суперкомпьютеров. В 1987 году был создан хребет сети NSFNET, состоящий из 13 центров, расположенных в разных частях США. Позже NSFNET поглотила ARPANET и в 1990 году появилась сеть Интернет в США. Затем к ней стали подключаться национальные сети других стран. Бурный рост пользователей в России начался с 1996 года.

Структура Интернета

Интернет состоит из множества компьютеров, соединенных между собой линиями связи, и обеспечивает обмен информацией между этими компьютерами не зависимо от типа компьютера и его программного обеспечения.
Основные ячейки Интернет – локальные вычислительные сети. Компьютеры, самостоятельно подключенные к Интернет, носят название host-ЭВМ. «Центральная жила» Интернет – оптоволоконный кабель с очень высокой пропускной способностью. Информацию можно переносить и с помощью спутниковых систем связи. Каждый подключенный к сети компьютер имеет свой адрес, по которому его может найти абонент из любой точки мира.

Пользователи Интернет подключаются к сети через компьютеры специальных организаций, которые называются поставщиками услуг сети Интернет – провайдерами. В настоящее время используются различные варианты подключения к Интернет.

  1. Постоянное подключение. Локальные вычислительные сети подключаются с помощью выделенной связи, которая обеспечивает высокую скорость передачи информации.
  2. Работа только посредствам электронной почты.
  3. Коммутированное подключение с помощью эмуляции терминала, когда подключенный к сети компьютер использует систему поставщика.
  4. Сеансовое соединение. Через обычную телефонную линию модем подключенного компьютера связывается с модемом провайдера, по окончании сеанса связь с Интернет разрывается.
Передача информации в Интернете

Сеть Интернет – совокупность локальных вычислительных сетей, удовлетворяющих протоколу TCP/IP, которая имеет общее адресное пространство, где  у каждого компьютера есть свой уникальный IP-адрес. Этот адрес несет информацию о владельце и  имеет формат, позволяющий автоматически его обрабатывать.
Для каждого компьютера устанавливается два  адреса:

Цифровой адрес имеет длину 32 бита и предназначен для обработки таблиц маршрутов. Система доменных адресов (Domain Name System) строится по иерархическому принципу: сначала домен государства, затем регион, затем организации и т.д.

Сетевой протокол предписывает правила работы компьютерам, подключенных к сети. Стандартные протоколы позволяют взаимодействовать разнотипным компьютерам. На канальном и сетевом уровнях используются два основных протокола: IP – протокол Интернет и  TCP – протокол управления передачей. Протокол ТСР разбивает информацию на порции, нумерует порции, чтобы при получении можно было правильно собрать информацию. Каждый пакет имеет заголовок,  ТСР-адрес получателя, информацию об исправлении ошибок, информацию о последовательности передачи пакетов. Затем пакеты ТСР разделяют на еще более мелкие пакеты IP.

Пакеты состоят из трех уровней: данные приложения, информация ТСР, информация IP. Перед отправкой пакета протокол ТСР вычисляет контрольную сумму. При поступлении вновь рассчитывается контрольная сумма; если пакет поврежден, то запрашивается повторная передача. Принимающая программа объединяет пакеты IP в пакеты ТСР, из которых реконструируются исходные данные.

Ресурсы сети Интернет

Информационные ресурсы Интернет – это вся совокупность информационных технологий и баз данных, которые доступны при помощи этих технологий. К их числу относятся:

Электронная почта - специальный пакет программ для хранения пересылки сообщений между пользователями ЭВМ. Посредством электронной почты реализуется служба безбумажных почтовых отношений. Она является системой сбора, регистрации, обработки и передачи любой информации по сетям ЭВМ и выполняет такие функции, как редактирование, пересылка корреспонденции, проверка и исправление ошибок, возникающих при передаче, выдача подтверждения о получении корреспонденции адресатом, получение и хранение информации в собственном «почтовом ящике», просмотр полученной корреспонденции.

Почтовый ящик - специально организованный файл для хранения корреспонденций. Каждый почтовый ящик имеет сетевой адрес и состоит из двух корзин: отправления и получения.
Любой пользователь может обратиться к корзине получения другого пользователя и сбросить туда информацию, но просмотреть ее не может. Из корзины отправлений почтовый сервер забирает информацию для рассылки другим пользователям. Для пересылки корреспонденции можно установить связь в режиме on-line.

Почтовый сервер - отдельный компьютер, выделенный в качестве почтового отделения. Все компьютеры получателей подключены к ближайшему почтовому серверу, получающему, хранящему и пересылающему дальше по сети почтовые отправления, пока они не дойдут до адресата. Отправка адресату осуществляется по мере его выхода на связь с ближайшим почтовым сервером в режиме on-line. Пользователь передает сообщение вместе с адресом по телефонному каналу через модем на ближайший почтовый сервер. Сообщение регистрируется, ставится в очередь, и по первому свободному каналу передается на следующий почтовый сервер, пока адресат не заберет его в свой почтовый ящик.

Пересылка сообщений пользователю может выполняться в индивидуальном (адресатом является отдельный компьютер пользователя), групповом (корреспонденция рассылается одновременно группе адресатов)и общем (корреспонденция отправляется всем пользователям – владельцам почтовых ящиков) режимах. Посредством двух последних режимов можно организовывать телеконференцию, электронные доски объявлений. Во избежание перегрузки почтовых ящиков в почтовых серверах хранятся справочники адресов,  содержащих фильтры для групповых и общих сообщений.

Электронная почта поддерживает текстовые процессоры для просмотра и редактирования корреспонденции, информационно-поисковые системы для определения адресата, средства поддерживания списка рассылаемой информации, средства предоставления расширенных видов услуг: факс, телекс и т.п. Электронная почта может быть организована в локальной сети внутри предприятия для обеспечения внутреннего обмена информацией.

Для работы электронной почты в Интернете разработан специальный протокол  SMTP, который является протоколом прикладного уровня и использует транспортный протокол TCP. Дополнительно к  SMTP может использоваться и UUCP, который оптимален для использования телефонных линий связи и сообщения доходят гораздо быстрее.  

World Wide Web – распределенная гипертекстовая информационная система, которая предоставляет доступ к большинству информационных архивов Интернет. Особенностью системы является механизм гипертекстовых ссылок, благодаря которому пользователь может просматривать материал в порядке выбора этих ссылок, путем нажатия кнопки мыши на нужном слове или поле графической картинки.
Вводной частью гипертекстовой базы, расположенной на сервере является адресуемая страница, имеющая собственный адрес. Вслед за адресуемой страницей дается группа других взаимосвязанных страниц WWW, содержащих дополнительную информацию. В текстах всех страниц даются гипертекстовые ссылки на любые другие документы, содержащиеся как в том же, так и в других серверах WWW.
Во всемирной сети WWW используется гипертекстовый протокол передачи HTTP, который описывает в гипертексте процедуры обмена блоками гипертекста. Протокол работает на прикладном уровне и предназначен для передачи сообщений, являющихся этими блоками. Использование HTML дает возможность: